heise+ | Testen im Zeitalter der LLMs: Ein probabilistischer Ansatz gegen flakige Tests

27.05.2026
13:30 Uhr

heise+ | Testen im Zeitalter der LLMs: Ein probabilistischer Ansatz gegen flakige Tests

Deterministische Assertions treffen auf nichtdeterministische Realität – und CI wird zum Würfelspiel: API-Latenz, Netzfehler, LLM-Variabilität.

Sobald Sie ein Large Language Model (LLM) in den Kontrollfluss Ihrer Anwendung integrieren, rufen Sie keine deterministische Funktion mehr auf – Sie ziehen Stichproben aus einem Modell. Das Modell kann in den meisten Fällen korrekt sein und dennoch gelegentlich fehlerhaften Output liefern: mal formal ungültig, mal semantisch daneben oder zwar schema-konform, aber für Ihre Anwendung nicht sicher brauchbar.

Deterministische Assertions treffen auf nichtdeterministische Realität – und CI wird zum Würfelspiel: API-Latenz, Netzfehler, LLM-Variabilität. PUnit macht aus Unit-Tests statistische Prüfungen: Statt „ein Output ist korrekt“ wird geprüft, ob die Pass-Rate eine Mindestqualität mit definierter Konfidenz erreicht. Ergebnis: entscheidungsfähige Tests für stochastische Systeme – also „grün“ wird wieder vertrauenswürdig.

Ein konkretes Beispiel: Ein Assistent soll eine Kundenanfrage in einen Befehl übersetzen, der als JSON ausgedrückt wird. Der Happy Path ist trivial, doch drei Fehlerklassen tauchen in der Praxis immer wieder auf:

Das folgende Listing zeigt eine vereinfachte Happy-Path-Interaktion.